utilizando pacotes para processamento de texto
Um corpus é uma coleção de textos usada para análise. Exemplo: Todas as letras de músicas de um artista, um gênero musical ou de um período específico. Um corpus pode ser usado para identificar padrões, como temas recorrentes ou tendências linguísticas.
Um token é uma unidade mínima de texto, geralmente uma palavra.
Exemplo: Na frase “Fiel como um cão”, os tokens são: “fiel”, “como”, “um”, “cão”.
Bigramas são pares consecutivos de palavras em um texto.
Exemplo: No verso “Porque chumbo trocado não dói” os bigramas são “Porque chumbo”, “chumbo trocado”, “trocado não”, “não dói”
Palavras comuns que geralmente não agregam significado em uma análise, como “o”, “de”, “e”.
Exemplo: “Minha vó é show de bola / Aprendeu lá em Angola / Encontrou meu corpo aberto e fechou” - sem as stopwords: “minha vó é bola aprendeu lá angola encontrou meu corpo aberto fechou”
APIs (Spotify, Genius, Vagalume, etc.),
Planilhas com metadados musicais,
Rankings (Billboard, Spotify…)
Seus dados!
O que investigar em um dataset musical: artista, album, ano, letras, gênero, popularidade.
dplyr (manipulação de dados);
text (análise de texto);
ggplot2 (visualização);
tidytext (NLP para texto);
spotifyr (coleta de dados da API Spotify).
R-Ladies São Paulo